查看原文
其他

大数据揭秘: 原来单身女生有这些特点...

YOUNG 程序人生 2018-10-25

点击上方“程序人生”,选择“置顶公众号”

第一时间关注程序猿(媛)身边的故事


作者

YOUNG

作者简介

三栖不出名科学爱好者,喜欢异想天开捯饬代码,对数据分析和挖掘很有兴趣。个人公众号:科学小镇

已获原作者授权,如需转载,请联系原作者。


大数据揭秘: 原来单身女生有这些特点...

据媒体报道,中国目前的单身成年女性的数量已经超过一个多亿,也就是说14.3%的成年女性处于单身状态,与日本全国人口总数基本相当

知己知彼,百战不殆。如果你是一个单身女性,你可以看到自己的某些影子;如果是单身男生,你需要了解目标人群的特点;如果是已婚男士,要相信“天下凤凰一般美!!!”

说    明

开始本文之前有几点说明:

1、本文数据主要来自于某婚恋网站的爬虫搜索数据;

2、该网站上的女生默认为单身;

3、该网站上的个人信息默认为真实;

4、爬取的样本数据具有充分的代表性。

一、基本概况

爬取该网站18~37岁之间的女生个人主页信息,总体数量在5000左右,地域范围涵盖三十多个省(自治区、直辖市)。数据质量方面:身高、体重和工作等部分信息缺省。

二、人群年龄与星座分布

从年龄直方图看,基本满足正态分布,在24岁和32岁左右存在两个较大的波峰18~23岁正处于大学教育阶段,校园恋情比较多,因此该年龄阶段在网站注册人数较少;26岁处于两个波峰之间,是剩下比较少的年纪,说明这个年龄阶段的比较抢手。

从星座分布来看,风相星座中的双子座(11.47%)和天秤座(10.58%)的优异成绩勇夺前两名,有意思的是,同属风相星座的水瓶座以5.51%垫底。按照一般的理解,风相星座想象力丰富,擅长社交,语言表达能力强,但性格变化多端,有喜新厌旧和情绪化的毛病,这也许是呈现两极分化的原因吧。而自带招黑体质的处女座(8.78%)表现相对中庸

三、外貌协会特点

从身高分布直方图上看,身高的众数为165CM,主要分布区间为160~170。

从体重分布直方图上看,体重集中于48~53kg之间,基本满足正态分布规律。

从外貌自我描述的关键词上看,“迷人”、“秀气”、“可爱”高居三甲,同时“长发”看起来是一个很重要的特征,有意思的是还有人将“爱笑”、“健康”作为自我外貌的描述关键词。

四、个性和爱好

从个性描述上看,“温柔”、“开朗”、“活泼”的女生占据了单身女性的大多数,估计和人群分布规律类似。比较吸引眼球的关键词“简单”。我觉得此处的简单,可能就是所谓的“喂马劈柴周游世界”“从明天起关心粮食和蔬菜”吧。

从爱好上看,“旅游”、“逛街”、“聚会交友”爱好榜前三名。这也很好理解,主要的爱好其实是买买买,可以逛街买,也可以旅游买,买了之后可以聚会交友,而后带上朋友一起买。。。

五、受教育情况

受教育程度上看,本科占据了绝大多数,这和人群的分布规律基本一致。

六、工作和收入

职业分布情况见下图:

令人比较吃惊的是各位单身的收入,不想评论了,都这么高。。。


七、全国分布情况

可以看出,经济发达的上海、北京等大城市的数量比较多,与黑河腾冲线人口分布规律一致。


八、数据相关性

选取年龄、身高、星座、省份、学历、收入、职业等7个维度的刻画数据,分别计算Pearson、Spearman和Kendall相关系数

结论基本一致:收入和职业的相关性较强(Pearson相关系数=0.46),其次是收入和年龄、学历的相关性。一个有趣的发现是身高和学历竟然存在微弱的相关性,Pearson相关系数为0.26;而星座与其他各项的相关性最弱,所以经常说的XX星座擅长考试的说法应该是没有依据的吧。


九、小结

单身女生分析报告基本完成。从统计结论上看,与人群分布规律基本一致,也与外界的认知基本统一。不过也有几点有意思的发现:比如年龄分布的双峰特点、风相星座的两极分化、“旅游逛街交友”的三大爱好以及身高和学历间的微弱相关性


数据里蕴含着丰富的宝藏,只要挖掘,总会有所发现。


点文末阅读全文,看『程序人生』其他精彩文章推荐。



- The End -

「若你有原创文章想与大家分享,欢迎投稿。」

加编辑微信ID,备注#投稿#:

程序 丨 druidlost  

小七 丨 duoshangshuang

2018 AI开发者大会

拒绝空谈,技术争鸣


2018 AI开发者大会是一场由中美人工智能技术高手联袂打造的AI技术与产业的年度盛会!是一场以技术落地为导向的干货会议!大会设置了10场技术专题论坛,力邀15+硅谷实力讲师团和80+AI领军企业技术核心人物,多位一线经验大咖带你将AI从云端落地。

大会5折优惠票价进入倒计时,10月13日开启8折购票通道。



推荐阅读:

print_r('点个赞吧');
var_dump('点个赞吧');
NSLog(@"点个赞吧!")
System.out.println("点个赞吧!");
console.log("点个赞吧!");
print("点个赞吧!");
printf("点个赞吧!\n");
cout << "点个赞吧!" << endl;
Console.WriteLine("点个赞吧!");
fmt.Println("点个赞吧!")
Response.Write("点个赞吧");
alert(’点个赞吧’)


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存